Audio Generation

The Best 56 Audio Generation Tools in 2025

Musicgen Medium

MusicGen is a text-to-music model that generates high-quality music samples based on text descriptions or audio prompts, utilizing a 1.5-billion-parameter autoregressive Transformer architecture.

Audio Generation

EnCodec is a high-fidelity real-time neural audio codec developed by Meta AI, employing end-to-end training and supporting multiple bandwidth settings.

Audio Generation

High-fidelity real-time neural audio codec developed by Meta AI, specifically trained for the MusicGen project

Audio Generation

Bigvgan V2 44khz 128band 512x

BigVGAN is a universal neural vocoder based on large-scale training, capable of generating high-quality audio waveforms.

Audio Generation

MusicGen is a text-to-music model that generates high-quality music samples based on text descriptions or audio prompts.

Audio Generation

Stable Audio Open 1.0

Stable Audio Open 1.0 is a text-to-audio generation model capable of generating up to 47 seconds of 44.1kHz stereo audio based on text prompts.

Audio Generation English

Bigvgan V2 24khz 100band 256x

BigVGAN is a high-performance neural vocoder that achieves high-quality audio synthesis through large-scale training, supporting multiple sampling rates and frequency band configurations.

Audio Generation

EnCodec is a real-time high-fidelity neural audio codec developed by Meta AI, supporting multiple bandwidth configurations and streaming processing.

Audio Generation

Musicgen Songstarter V0.2

A text-to-audio model fine-tuned from musicgen-stereo-melody-large, designed for music producers to generate 32kHz stereo audio song ideas

Audio Generation English

Musicgen Stereo Small

AI model that generates high-quality stereo music samples based on text descriptions, supporting 300M parameter scale

Audio Generation

MusicGen Small is a Transformer-based music generation model capable of producing high-quality music clips from text descriptions.

Audio Generation

MusicGen is a text-to-music generation model capable of producing high-quality music samples based on text descriptions or audio prompts.

Audio Generation

Musicgen Melody

MusicGen is a simple and controllable music generation model capable of producing high-quality music based on text descriptions or melody inputs.

Audio Generation

Musicgen Melody Large

MusicGen is a text-to-music generation model developed by Meta AI, capable of producing high-quality music samples based on text descriptions or audio prompts.

Audio Generation

ACE-Step-v1-3.5B is a text-to-audio model that supports high-quality audio generation, suitable for music and sound effects creation.

Audio Generation

Stable Audio Open Small

A diffusion model that generates up to 11 seconds of 44.1kHz stereo audio based on text prompts

Audio Generation English

Stable Codec Speech 16k

High-quality low-bitrate speech codec model based on Transformer architecture, specifically designed for speech data compression and generative modeling

Audio Generation English

Magnet Small 10secs

MAGNeT is a text-to-music and text-to-audio model capable of generating high-quality audio samples from text descriptions.

Audio Generation

ACE Step V1 Chinese Rap LoRA

A hybrid rap vocal model focused on improving the generation quality of Chinese rap/hip-hop music

Audio Generation Supports Multiple Languages

A high-quality speech language model trained on a single GPU within 24 hours, fine-tuned based on Qwen2.5-0.5B, using Hubert tokens as vocabulary

Audio Generation

Inspiremusic 1.5B Long

InspireMusic is a unified toolkit focused on music generation, song generation, and audio generation, supporting high-fidelity and long-form music generation.

Audio Generation

Safetensors English

TangoFlux is an efficient text-to-audio generation system that combines flow matching and CLAP preference optimization technologies to quickly produce high-quality audio.

Audio Generation

Audio Magnet Medium

MAGNeT is a non-autoregressive Transformer-based text-to-music and sound effects generation model capable of producing high-quality audio samples from text descriptions.

Audio Generation

Magnet Medium 30secs

MAGNeT is a text-to-music and text-to-sound model capable of generating high-quality audio samples from text descriptions.

Audio Generation

Musicgen Stereo Large

MusicGen is a text-to-music generation model developed by Meta AI, supporting stereo generation and capable of producing high-quality music samples based on text descriptions or audio prompts.

Audio Generation

Magnet Medium 10secs

MAGNeT is a text-to-music and text-to-sound model that can generate high-quality audio samples based on text descriptions.

Audio Generation

Yue S2 1B General Exl2 8.0bpw

YuE is a groundbreaking open-source foundational model series specifically designed for music generation, particularly for converting lyrics into complete songs (lyrics2song).

Audio Generation

Musicgen Stereo Medium

Stereo music generation model released by Meta AI, capable of generating high-quality music from text descriptions

Audio Generation

Magnet Small 30secs

MAGNeT is a text-to-music and text-to-sound model capable of generating high-quality audio samples from text descriptions.

Audio Generation

Sentis MusicGen

A Meta MusicGen model verified by Unity Sentis that can generate stylized music up to 30 seconds long based on text prompts.

Audio Generation

Audio Magnet Small

MAGNeT is a text-to-music and text-to-sound model capable of generating high-quality audio samples based on text descriptions. It is a non-autoregressive Transformer model based on masked generation, using a 32kHz EnCodec tokenizer.

Audio Generation

Perceiver Ar Sam Giant Midi

A symbolic audio model based on the Perceiver AR architecture, pre-trained on the GiantMIDI-Piano dataset for symbolic audio generation

Audio Generation

Tango 2 is an improved text-to-audio generation model based on Tango, optimizing audio generation quality through DPO alignment training

Audio Generation

Transformers English

Yue S1 7B Anneal Jp Kr Icl

YuE is a series of open-source foundational models specifically designed for music generation, particularly for converting lyrics into complete songs (lyrics2song).

Audio Generation

TANGO is an instruction-guided diffusion model for text-to-audio generation, capable of producing realistic audio including human voices, animal sounds, and natural or artificial sound effects based on text prompts.

Audio Generation

Transformers English

This is a speech language model based on discrete Hubert tokens, focusing on efficient training and capable of generating speech segment continuations.

Audio Generation

TunesFormer is a Transformer-based dual-decoder model designed to generate melodies that conform to user-defined musical forms, especially suitable for traditional Irish music.

Audio Generation

Generative AI-based MIDI music creation model supporting generation from scratch or template-based continuation

Audio Generation

Musicgen Stereo Melody

MusicGen is a text-to-music generation model developed by Meta AI, capable of producing high-quality stereo music samples based on text descriptions or audio prompts.

Audio Generation

Music Large 800k

This is a large Transformer model with 780 million parameters, specifically designed for music generation and transcription tasks, using anticipatory training methods.

Audio Generation

Tango 2 is an improved text-to-audio generation model based on Tango, achieving alignment training for audio generation through Direct Preference Optimization (DPO) technology

Audio Generation

Transformers English

Inspiremusic 1.5B 24kHz

InspireMusic is a unified framework focused on music generation, song generation, and audio generation, integrating autoregressive transformers with flow-matching models through audio tokenization technology, supporting high-quality long audio generation.

Audio Generation English

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase